Textual Inversionを試してみる

https://gyazo.com/461f9aa8415fdc0e45e20a4eb9d42dec

うちのねこの写真5枚を学習データとして新しいトークンの埋め込みベクトルをTextual Inversionで再計算させ、その新しいトークンをプロンプトに使ってStable Diffusionで画像生成をする。

学習データ

https://gyazo.com/760f4eb8f518290288ed0a87b9b26e1a

AIが生成した写真、AIが生成したモネ風絵画

https://gyazo.com/ffa21fa2d8ab09a2a76d41459efcbef9https://gyazo.com/29787da6b19012fc721907eeb6f3a285

ちなみにプロンプトは "a photo of うちのねこ" とか "a painting of うちのねこ by Claude Monet" 的な感じなんだけど、この「うちのねこ」部分をcatにすると下記のようになります。猫としての完成度は上がるけど「うちのねこ」の特徴は乏しいですね。

https://gyazo.com/a280b7afa562217920b6b3e6427b1a0dhttps://gyazo.com/960a4befc7d6f2f8c0d4ca6f3fbebc76

たぶんうちのねこは黒・オレンジ・白の3色の毛色の中の構造で、黒の色素が失われてオレンジもかなり薄くなってるタイプなのだと思う。

https://gyazo.com/73cf1b06b231de0dcb32f31cba3ef74ehttps://gyazo.com/29bbe5396e9c4a16f1ac0a765b4af8e4

Textual Inversionが生成する埋め込みベクトルのファイルは5KB程度。中身は768次元のfloatのベクトルがメインで、トークンに関する細かい情報が少し付属してる感じ。

---感想

@nishio: 現状は「あんまり似てないなぁ」という気持ちなんだけど、ランダムな猫の写真と比べると明らかに特徴を習得しているので、数年以内に亡くなった大切な人やペットの写真で学習させて面影を求めてガチャを回し続ける人がたくさん出現するだろうなぁという気はした。

例えば夭折してしまった娘の写真を学習させて毎日何百枚も生成しては気に入ったものを選びだすって作業をしていると、その「心の中に生きてる娘」の新しい写真が生まれていくわけで。行ったことのない観光地で記念撮影をしたり、やらなかった運動会の写真を撮ったり、結婚式写真を作ったり…

完全室内飼いのうちのねこをバーチャル海に連れて行った時のバーチャル記念写真です

https://gyazo.com/f71c768dc578e7a8e678af69f9b76bc6

"結婚式写真"

あー、そうなると「自分が考えた理想の婿」を生成してお見合いさせて結婚させた後、存在したことのない「孫」の写真を生成し始めることもできてしまうのか…

この「バーチャルリアリティ」はヤバい感じがするなぁ。需要があれば提供者も出るだろうし、業者が潰れてバーチャル孫が失われる悲劇とかも…

あーそうか、写真からリアル本人風アバターを作る系のメタバースのマーケットを今までイマイチ理解してなかったけど「死んだ人が生き続ける世界としてのメタバース」に発展していくわけか…